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摘要 : [目的 /意义 ] 从 科技 论文 中 自动 识别 与 抽取 研究 设计 指纹 ,能 够 为 科研 人 员 项 目 设 计 、 研 究 方法 的 
有 效 性 评估 、 研 究 过 程 问 题 诊断 \ 研 究 结果 鉴别 与 评价 提供 重要 的 方法 论 和 研究 操作 支撑 。[ 方 法 /过 程 ] 基 于 
科技 论文 研究 设计 指纹 的 概念 模型 ,提出 基于 多 规则 模式 混合 机 器 学 习 方法 ,设计 并 实现 指纹 识别 算法 ,并 以 
数据 挖 握 领 域 的 期 刊 文献 数据 为 例 , 对 识别 算法 的 可 行 性 与 有 效 性 进行 分 析 验 证 。 [ 结果 /结论 ] 除 研究 数据 与 
研究 趋势 外 ,其 他 研究 设计 指纹 识别 准确 率 的 认可 度 都 基本 达到 80% 以 上 ,覆盖 率 的 认可 度 , 除 研究 工具 与 研 


究 数 据 外 ,基本 达到 80% 以上。 
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语义 标注 知识 抽取 ”机 器 学 习 


科技 论文 作为 科学 技术 发 展 的 重要 战略 资源 , 记 


设计 指纹 的 理论 与 技术 方法 体系 就 变 得 十 分 必要 与 迫 
切 。 笔 者 在 已 构建 完成 科技 论文 研究 设计 指纹 概念 模 
型 和 识别 模型 的 基础 上 ,进一步 研究 与 探索 科技 论 


对 着 科学 真理 验证 过 程 、 实 验 观测 结果 及 研究 结论 等 
研 公 知识 脉络 线索 ,论文 中 所 涉及 的 研究 设计 (包括 研 
究 同 题 .研究 方法 ,研究 流程 .研究 工具 、 相 关 方 法 与 技 
术 参 数 设 定 等 ) ,为 后 续 研 究 者 提供 了 宝贵 的 方法 论 和 
研 短 操作 基础 ,成 为 科研 人 员 项 目 设计 研究 方法 有 效 
性 鲜 估 、 研 究 过 程 问题 诊断 研究 结果 鉴别 与 评价 的 重 
要 基础 。 科 研 人 员 希 望 能 够 有 工具 来 有 效 回答 “有 谁 
用 信 么 方法 来 解决 这 个 问题 “哪些 方法 及 其 技术 与 
参数 设 定 能 够 更 好 地 解决 这 个 问题 " 等。 但 在 科研 文 
献 数量 迅速 增加 的 环境 下 ,在 项 目 策划 设计、 申请 、 立 
项 实施 细节 规划 、 实 施 管理 等 各 个 阶段 ,研究 人 员 需 
要 能 够 及 时 、 准 确 地 发 现 针对 研究 问题 的 各 类 研究 设 
计 及 其 细节 ,系统 比较 同一 问题 上 不 同 研究 设计 及 其 
成 效 ,利用 已 有 的 各 类 研究 设计 及 其 执行 效果 来 优化 
或 调整 自己 的 设计 及 研究 过 程 ,提供 支持 相应 研究 方 
法 及 其 细节 设置 的 知识 证 据 链 ,而 目前 以 主题 词 为 主 
的 数据 挖掘 或 者 聚焦 于 文摘 层面 的 知识 发 现 理论 与 技 
术 还 很 难 有 效 满 足 这 些 需 求 。 

因此 ,设计 并 实现 一 套 自动 识别 与 抽取 论文 研究 


文 研究 设计 指纹 自动 识别 的 方法 与 实现 。 本 研究 结构 
如 下 :中 界定 研究 设计 指纹 内 涵 与 特征 ;@ 综 述 研究 设 
计 指 纹 自动 识别 方法 相关 的 方法 ;@ 面 对 问题 ,提出 并 
设计 研究 设计 指纹 自动 识别 方法 ;@ 结 合 实验 数据 验 
证 研究 设计 指纹 自动 识别 方法 的 可 行 性 与 有 效 性 。 


2 研究 设计 指纹 内 涵 与 特征 
研究 设计 指纹 是 在 一 篇 科技 论文 中 能 够 唯一 表示 
与 描述 科学 研究 设计 的 各 个 研究 阶段 与 研究 实体 的 重 


要 知识 单元 ,包括 研究 假说 、 研 究 目的 .研究 背景 研究 
方法 .研究 数据 .研究 工具 \ 研 究 结 果 、 人 研究 结论 以 及 研 
究 趋 势 9 种 指纹 类 型 ,具备 4 个 主要 特征 :中 知识 唯一 
性 , 即 这 些 重 要 知识 单元 在 遵守 科研 道德 规范 的 前 提 
下 ,其 所 具有 的 研究 设计 指纹 特征 是 唯一 的 ,其 特征 的 
核心 构成 维度 有 作者 与 文章 标题 ;® 研 究 思维 性 , 即 研 
究 设 计 指 纹 可 以 精炼 地 揭示 “一 个 科学 研究 设计 的 整 
体 设计 思路 ” ;8 知识 结构 性 , 即 研究 设计 指纹 可 以 结 
构 化 地 描述 “科学 研究 方法 、 过 程 和 结果 ” ,将 其 中 的 
重要 知识 进行 抽取 、 组 织 与 关联 ;@ 骨 干 网 络 性 , 即 一 
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篇 科技 论文 利用 研究 设计 指纹 可 以 类 似 于 网 络 骨干 图 
一 样 ,可 视 化 地 描绘 “科学 研究 中 的 骨干 知识 ”。 


研究 设计 指纹 作为 列 藏 在 科技 论文 内 容 中 的 特殊 
语义 标签 ,与 研究 设计 指纹 识别 相关 的 方法 主要 类 似 
于 语义 标注 与 识别 的 知识 抽取 方法 ,以 计算 机 程序 自 
动 执 行 的 模式 ,实现 研究 方法 等 具有 语义 的 知识 构件 
自动 识别 与 抽取 。 
3.1 基于 本 体 知识 工程 进行 识别 知识 的 方法 

R. Girju 等 ”等 利用 该 方法 自动 识别 英文 句子 中 
名 词 之 间 的 语义 关系 (原因 - 结果、 产品 -生产 者 内 
容 - 容器 .主题 - 工具 和 来 源 - 实体 等 ) ;D. Wang 
等 屿 整合 统计 学 特征 \ 决 策 树 和 支持 向 量 机 算法 以 及 
已 看 知识 来 提取 未 知 文本 语义 实体 的 新 颖 策略 ;再 如 
MaM OntOMatP?! 以 及 AKT( advanced knowledge tech- 
nólogy) 项 目的 Melita ^ , 半 监 督 类 工具 有 IBM 设计 实 
JB SemTag " "Armadillo DJ t. Y. F. Guo " 提出 的 
最 骨 监 督学 习 方法 用 于 医学 文献 的 综述 研究 。 这 些 方 
涛 副 在 各 自 的 研究 领域 取得 了 一 定 的 成 效 ,其 中 YF. 
Cio 提出 的 利用 语 篇 修辞 与 词汇 本 身 特征 的 最 小 监督 
党 双方 法 对 医学 论文 中 的 “信息 结构 ”的 识别 ,主要 从 
GR .研究 方法 与 研究 结果 的 视角 进行 识别 ,只 是 
“三 这 方法 "的 识别 准确 率 仅仅 达到 29% ,召回 率 也 只 
(psv 
号 而 苏牧 . 首 人 彬 等 提出 神经 网 络 识别 方法 和 宽度 
优先 法 可 以 将 聚 类 后 的 各 个 语句 进行 知识 形式 转换 ， 
从 而 完成 由 自然 语言 问卷 到 面向 对 象 知识 体系 的 知识 
抽取 过 程 5 ; 许 勇 、. 宋 柔 等 提出 一 种 基于 隐 马 尔 科 夫 
模型 的 方法 标注 大 百科 全 书 , 即 利用 知识 点 在 条 目 文 
本 中 的 转移 规律 以 及 知识 点 的 词 特 征 分 布 来 判断 每 个 
句子 的 知识 点 类 别 "”。 另 外 , “基于 本 体 标 引文 献 的 
T?” (An Ontology Based Tool for Preparation of Arti- 
cles) ”项目 组 在 2007 年 -2009 年 期 间 开 展 全 文 挖掘 
与 标 引 工作 中 ,抽象 出 “科技 论文 核心 信息 (core infor- 
mation scientific papers , CISP)” 概 念 ,该 方法 的 实验 结 
果 相 对 较 好 ,但 是 受到 知识 语 料 的 限制 。 
3.2 ”基于 规则 模式 匹配 的 方法 

H. Houngbo"“ 利用 规则 实现 科技 论文 中 所 描述 方 
法 的 抽取 ,准确 率 达到 了 85% ,但 是 未 对 其 他 类 型 指 
纹 进行 研究 。C. D. Manning ^ 利用 信息 抽取 模式 (in- 
formation extraction patterns ) 实现 技术 方法 以 及 分 类 主 
题 短语 的 识别 与 抽取 ,准确 率 仅 有 20% 。D. Kiela 
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V Y. F. Guo ”二 利用 话题 在 科技 论文 中 的 属性 规 
则 实现 研究 方法 的 识别 与 抽取 ,属性 包括 位 置 .时 态 、 
动词 .语法 等 。J. E. Kohler'" 使 用 基于 指示 词 的 规则 
实现 期 刊 文献 摘要 的 研究 方法 的 识别 ,指示 词 如 meth- 
od „analysis „algorithm „approach 以 及 mode 等 。 刘 一 宁 、 
郑 彦 宁 等 针对 学 术 期 刊 设 计 了 一 种 学 术 定义 抽取 系 
统 ,通过 混合 使 用 模式 规则 语法 规则 和 词 频 统计 以 达 
到 定义 抽取 的 目的 ” V TRE RE TERNARA 
中 的 属性 描述 进行 了 数量 关系 和 情感 信息 的 分 析 ” ; 
以 作战 文书 为 代表 的 科技 论文 构造 上 , 郭 忠 伟 、 周 献 中 
和 黄 志 同 等 构造 各 类 作战 文书 的 Schema 库 ,利用 
Schema 上 的 修辞 谓词 抽取 相应 的 知识 ,最 终 构造 文书 
We. 
3.3 ”基于 网 络 协同 编辑 方法 

SemLib EU projeet(2012 ) F£ T Pundit" ,满足 用 
户 在 标注 网 页 的 同时 构建 结构 化 数据 ,支持 群 组 用 户 
分 享 标注 和 协同 建立 结构 化 知识 ,通过 三 元 组 存储 和 
关系 数据 库 实现 语义 标注 对 象 的 持久 化 存储 。 英 国 开 
放大 学 开发 的 SWEET" ( semantic web services editing 
tool) ,提供 了 一 个 轻 量 级 的 Web APIs 的 语义 标注 Web 
应 用 ,基于 JS fll Ext GWT 实现 ,用 户 直 接 租 人 到 Web 
浏览 器 中 即 可 使 用 。 
3.4 基于 语法 关系 方法 

S. Gupta 等 提出 使 用 句法 依赖 树 实现 科技 论文 
中 的 使 用 到 的 技术 知识 点 的 标注 与 抽取 。S. 
Bethard “利用 语言 学 实现 问答 系统 中 的 事件 及 其 语 
义 类 型 识别 ,取得 了 较 高 的 准确 率 。ReVerb 语义 标注 
系统 ”引入 了 语法 和 词汇 限制 ,主要 体现 在 动词 表示 
的 两 元 关系 上 ,其 效果 比 TextRunner 和 WOE 等 软件 ， 
无 论 在 召回 率 还 是 准确 率 上 都 有 显著 提高 。 德 国 莱 比 
锡 大 学 AKSW 研究 组 提出 的 FOX (federated knowl- 
edge extraction framework ) 框架 整合 了 关联 数据 云 平 
& ,利用 NLP 算法 从 自由 文本 中 抽取 RDF 三 元 组 , 同 
时 也 整合 了 命名 实体 识别 .关键 字 抽 取 以 及 语义 关系 
抽取 等 工具 。 

综 上 所 述 , 现 有 的 技术 方法 对 于 特定 研究 环境 中 
的 语义 知识 识别 具有 一 定 成 效 ,也 为 研究 设计 指纹 识 
别提 供 了 技术 支撑 ,但 总 体 来 说 仍 具 有 较 强 的 学 科 领 
域 依赖 性 ,对 于 无 监督 指导 学 习 的 环境 适应 性 不 够 ,在 
无 领域 知识 组 织 体系 (KOS) 以 及 人 工 定义 规则 的 前 提 
下 ,无 法 开展 科技 论文 的 研究 设计 指纹 识别 的 应 用 ,而 
且 定 义 规则 对 于 专业 人 员 要 求 较 高 ,特别 是 “研究 设计 
指纹 ”的 识别 。 因 此 ,本 研究 从 科技 论文 本 质 出 发 , 遵 
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循 科技 论文 的 写作 指南 规范 PHAT CHECKLIST 规 
程 科 研 实验 的 CHECKLIST 规程 .研究 设计 指纹 的 描 
述 表达 习惯 等 客观 规律 与 现象 ,设计 研究 设计 指纹 识 
别 模型 算法 。 


4 研究 设计 指纹 自动 识别 方法 的 设计 


与 实现 


结合 科技 论文 写作 指南 以 及 组 织 结构 的 外 部 结构 
特征 与 内 部 内 容 特征 因素 ,本 研究 提出 “基于 多 规则 模 
式 混 合 机 器 学 习 方 法 "来 识别 科技 论文 的 研究 设计 指 
纹 , 即 在 综合 运用 语义 指示 词 规则 .语义 行为 词 规则 、 
语义 词 序 列 对 规则 .篇章 修辞 规则 ,位置 特征 规则 以 及 
上 下 文 指 纹 特 征 等 多 种 规则 模式 混合 基础 上 ,首先 基 
书 芭 有 本 体 库 知识 进行 标注 ,之 后 使 用 机 器 学 习 方法 


识 库 。 
4.1 基于 文献 段落 的 研究 设计 指纹 线索 自动 发 现 
方法 

鉴于 科技 论文 全 文 作为 非 结构 化 文本 而 较 难 识别 
指纹 特征 问题 ,笔者 提出 借助 自然 语言 处 理 (NLP ) 的 
相关 技术 方法 来 实现 科技 论文 全 文 的 自动 解析 、 知 识 
重组 与 结构 化 表示 ,核心 算法 基于 知识 对 象 抽取 和 词 
特征 抽取 实现 。 
4.1.1 基于 知识 对 象 抽取 的 线索 发 现 方法 ”知识 抽 
取 ” 是 指 从 数字 资源 中 识别 发现 和 提取 出 概念 、 类 
型 事实 及 其 相关 关系 约束 规 则 ,以 及 进行 问题 求解 
的 步骤 、 规 则 的 过 程 。 本 着 这 一 指导 思想 ,笔者 采用 
Stanford CoreNLP ^ 相关 技术 方法 ,实现 从 知识 抽取 过 
程 中 发 现 与 抽取 指纹 特征 线索 ,包括 线索 词 和 线索 模 


来 进一步 学 习 与 丰富 规则 模式 知识 库 , 尽 可 能 更 全 面 、 
村 准确 地 识别 与 标 引 科技 论文 中 的 研究 设计 指纹 , 具 
体 实施 技术 路 线 见 图 1 ,包括 基于 文献 段落 的 研究 设 
计 线 索 自动 发 现 、 线 索 知 识 库 的 构建 (线索 规则 库 )、 
基 戎 句子 粒度 的 研究 设计 指纹 自动 识别 与 基于 术语 粒 

研究 设计 指纹 自动 识别 ,最 终 形 成 篇 章 的 研究 设 


Yi a AHAUE ,实现 科技 论文 的 指纹 识别 。 


研究 设计 线索 知识 自动 发 现 


核心 术语 对 象 抽取 

| 语义 行为 词 与 句子 事实 识别 与 抽取 | 
身子 Token 与 词性 自动 解析 

篇 章 共 指 术语 识别 与 袖 取 


基于 术语 术 度 的 指纹 识别 
算法 


指纹 知识 库 


| 语料库 的 术语 指纹 规则 
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算法 


EINEN 


式 , 例 如 词性 标注 、 命 名 实体 识别 、 分 词 解析 器 .语法 分 
析 、 共 指 分 析 以 及 引导 模式 学 习 等 功能 方法 ,从 术语 抽 
取 \ 语 法 分 析 以 及 事实 抽取 3 个 方面 ,设计 从 知识 抽取 
过 程 中 发 现 与 抽取 指纹 特征 线索 的 实现 方法 ( 见 图 
2)。 

(1) 基 于 科技 术语 词 的 线索 词 发 现 。 首 先 通过 
使 用 领域 科技 术语 规范 库 ,实现 基于 句子 粒度 的 线 
索 词 抽取 ;其 次 ,利用 分 词 解 
析 器 实现 基于 句子 粒度 的 自 
由 术语 的 识别 与 抽取 ,同时 结 
合 识别 出 自由 术语 的 词性 规 
则 ,以 连续 词性 的 最 大 语义 块 
N 原则 ,选择 自由 术语 块 作为 备 
选 线索 词 ,最 大 范围 地 保障 术 
语词 的 上 下 文 背 景 ; 最 后 , 利 


用 术语 相似 度 算法 , 即 基 于 余 


语义 词 序列 对 规则 | 


行为 词 的 指纹 规划 


| SOX 属 性 规划 
| T HORAS SEREREHRAL | 


EEEN] 


| 语料库 规则 


ZAE 实现 自由 术语 词 与 
|| 规范 科技 术语 的 相似 度 计算 ， 


句子 位 置 规划 


| 上 下 文 规则 


图 1 研究 设计 指纹 识别 方法 的 实施 技术 路 线 


基于 上 述 技术 路 线 , 算 法 设计 共 分 6 步 ,具体 设计 
与 实现 描述 如 下 :中 基于 文献 段落 的 指纹 线索 发 现 与 
计算 ,包括 分 词 .词性 标注 命名 实体 识别 .词根 提取 、 
共 指 词汇 提取 、 核 心 词汇 提取 、 核 心 语义 行为 提取 以 及 
句子 事实 提取 ;@ 删 除 噪音 指纹 对 象 数据 (术语 粒度 的 
指纹 对 象 ) ;@) 句 子粒 度 的 研究 设计 指纹 特征 识别 ;外 
术语 粒度 的 研究 设计 指纹 特征 识别 ;( 研 究 设计 指纹 
识别 结果 的 修正 ;(@@ 生 产 并 创建 研究 设计 指纹 索引 知 


以 便 进一步 规范 与 标注 自由 术 
语词 ,其 中 在 相似 度 的 阐 值 上 
选择 0.8, 即 sim(x,y) > =0.8 
时 ,计算 公式 如 下 公式 (1) 所 示 , 其 中 x 5j y 是 表示 两 
个 术语 词 的 向 量 ,x= <x[1],…， 
[1]，…y[m]>。 


Zili] + ylil = dot(x,y) = >x[i] 
Ixl d yl 六 


x[m] >,y = «y 


sim(x,y) = 


- yli] 
(2) 基 于 句子 语法 的 线索 规则 发 现 。 利 用 自然 语 
言 处 理 技术 ,基于 句子 粒度 进行 token 解析 .词性 标注 
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文献 段落 分 词 、 词 性 标注 、 词 干 提取 、 命 名 实体 识别 、 语 法 分 析 
缩 略 词 提取 句子 核心 术语 词 提 取 
m 语法 规则 提取 
科技 术语 语 料 畏 
共 指 词汇 提取 
研究 设计 指纹 
线性 知识 库 > 


uw raid | 外 子 语义 词 及 词根 提取 


d 


y 
句子 词 的 token, tags 与 句子 描述 事实 提取 
role 提取 


图 2 研究 设计 指纹 识别 线索 发 现 与 计算 流程 


以 及 最 大 语义 块 的 提取 ,之 后 进行 结构 化 存储 。 通 过 
分 析 这 些 基 于 句子 语法 结构 化 的 基础 数据 ,形成 系列 
的 线索 规则 ,来 辅助 识别 指纹 特征 类 型 ,例如 ,一 个 识 
别 研究 方法 旨 纹 特征 类 型 的 规则 :(JJINNINNSINNPI 
NNPS) + (method | approach | measure ---. ) ,根据 该 线索 
规则 ,基本 可 以 判定 语义 块 (JJINNINNSINNPINNPS ) 
交 BS 个 研究 方法 指纹 。 
@(3 ) 基 于 事实 的 线索 模式 发 现 。J Bessin ? 在 基 
数据 开展 联邦 业务 分 析 中 强调 ,事实 抽取 作为 大 
数据 分 析 的 重要 核心 组 织 之 一 ,其 主要 目标 是 确定 重 
述 的 语义 以 及 它们 相互 之 间 的 关系 。 笔 者 将 利用 
科 搜 论文 中 “形成 一 个 事实 的 行为 动词 ”为 研究 切入 
点 3 发现 与 识别 与 该 事实 相关 的 主体 .客体 .动作 . 行 
准 状 态 ,处 所 以 及 时 间 等 事实 属性 ,以 发 现 研究 设计 
指 贸 与 事实 行为 的 特征 关系 以 及 线索 规则 模式 , 即 利 
用 车 纹 规范 语料库 中 的 规范 指纹 特征 词 ,与 该 事实 相 
uo rm o e 
功 则 该 事实 形成 一 个 指纹 线索 规则 模式 ,如 果 线 索 规 
则 库 中 已 存在 , 则 不 存储 ,否则 直接 存 入 到 规则 模式 库 
中 。 例 如 句子 : Web administrators, through the Robots 


«lin. 


Exclusion Protocol, use a special format file called robots, 
通过 事实 抽取 规则 , 则 发 现 以 下 3 个 描述 事实 , 即 : 


e Web administrators -) use-) special format file 


e Web administrators -) use -) Robots Exclusion Pro- 
tocol 

e ---》called -)robots 
4.1.2. 基于 特征 指示 词 的 线索 发 现 方法 在 科技 论 
文 内 容 撰 写 过 程 中 ,研究 设计 指纹 成 果 的 描述 具有 一 
定 规则 的 表述 习惯 以 及 依赖 于 上 下 文 背景 的 普遍 现 
象 。 基 于 这 一 规律 现象 ,本 研究 提出 基于 特征 指示 词 
的 线索 发 现 方法 ,主要 基于 指示 性 名 词 .指示 性 行为 词 
以 及 指示 性 共 现 词 3 种 特征 指示 词 来 发 现 研究 设计 指 
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纹 线 索 。 

(1) 基 于 指示 性 名 词 的 线索 发 现 。 通 过 一 个 名 词 
术语 即 可 标识 一 个 知识 对 象 的 指纹 特征 类 型 , 即 定义 
为 指示 性 名 词 线 索 ,例如 句子 :The finite projective ge- 
ometrymethod was first applied to determine the weight hi- 
erarchies ,通过 指示 词 method 基本 可 以 确定 The finite 
projective geometry 的 指纹 特征 类 型 为 “人 研究 方法 ”。 

(2) 基 于 指示 性 行为 词 的 线索 发 现 。 通 过 一 个 行 
为 词 即 可 标识 一 个 知识 对 象 的 指纹 特征 类 型 , 即 定义 
为 指示 性 行为 词 线索 ,例如 句子 : The finite projective 
geometry method was first applied to determine the weight 
hierarchies ,通过 指示 词 applied 基本 可 以 确定 该 句子 的 

昌 纹 特征 类 型 为 研究 方法 ”, 而 根据 该 句子 的 句法 分 
析 可 知 ,applied 为 被 动 语 态 ,因此 可 以 推断 知识 对 象 
The finite projective geometry 的 指纹 特征 类 型 为 “人 研究 
方法 ”。 

(3) 基 于 指示 性 共 现 词 的 线索 发 现 。 通 过 一 个 词 
对 或 多 个 单词 或 多 个 词组 共 现 的 现象 即 可 标识 一 个 知 
识 对 象 的 指纹 特征 类 型 , 即 定义 为 指示 性 共 现 词 线索 ， 
例如 句子 :The finite projective geometry method was first 


applied to determine the weight hierarchies ,通过 指示 词 
method 和 applied 的 共同 出 现在 一 个 句子 中 ,基本 可 以 
确定 该 句子 的 指纹 特征 类 型 为 “研究 方法 ”, 因 为 在 科 
技 论文 描述 一 个 研究 方法 时 ,经 常 以 “应 用 (apply ) 一 
个 XXX 方法 (method) 来 解决 XXX 问题 ”。 
4.2 基于 句子 粒度 的 研究 设计 指纹 自动 识别 方法 
4.2.1 算法 设计 与 实现 句子 粒度 的 研究 设计 指纹 
自动 识别 算法 设计 主要 从 语义 指示 词 规则 .语义 行 ， 
词 规则 .语义 共 现 词 规则 句子 所 在 段落 位 置 、. 句 子 所 
属 修辞 类 型 .语料库 规则 及 上 下 文 指 纹 类 型 规则 等 多 
个 规则 模式 来 综合 判断 一 个 句子 知识 的 最 可 能 的 研究 
设计 指纹 特征 类 型 。 其 中 ,句子 粒度 的 指纹 特征 向 量 
( sentence fingerprinter space vector, 简称 SSV ) ,主要 以 
与 句子 知识 单元 相关 的 指纹 特征 类 型 相关 因素 为 主要 
间 标 维度 ,包括 句子 的 核心 术语 (coreterms) .位置 等 10 
个 维度 , 即 :SSV = (SentenseID, Text, CoreTerms, Cor- 


pusWords , CorpusWordsType, SectionType, Location, 
Action, ActionType, ActionTense) 。 

核心 算法 设计 分 为 2 个 阶段 :第 1 个 阶段 是 基于 
语义 指示 特 指 词 的 构建 算法 ,利用 语法 规则 、 定 义 规 则 
以 及 Be 动词 规则 来 识别 与 标注 指纹 特征 ;第 2 个 阶段 
是 基于 指示 代词 特征 的 构建 算法 ,利用 指示 代词 来 识 
别 与 标注 当前 句子 的 指纹 特征 类 型 ,同时 建议 了 最 邻 
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近 上 下 文句 子 的 指纹 特征 类 型 。 

4.2.2 ”句子 粒度 研究 设计 指纹 特征 类 型 综合 评判 方 
法 “投票 方式 是 识别 句子 可 能 的 指纹 特征 类 型 的 主要 
方法 ,投票 者 代表 一 个 类 型 的 规则 ,每 个 规则 都 有 投票 
权利 ,但 是 由 于 身份 不 同 ,所 以 权重 不 同 ,其 权重 按照 
研究 设计 的 指纹 识别 模型 权重 值 的 分 配 规则 执行 ( 见 
表 1) 。 如 果 每 位 投票 者 的 得 分 是 权重 值 * 0( 反对) 或 
KAURI 1 CBE TRI) ,那么 一 个 句子 所 属 一 个 指纹 特 
征 类 型 的 最 终 得 分 为 每 位 投票 者 得 分 总 和 ,最 终 按照 


得 分 从 高 到 低 进行 排序 ,最 高 者 则 被 识别 为 最 可 能 的 
句子 指纹 特征 类 型 ,投票 得 分 的 算法 如 下 : 


Sentence, FP. Score =2 * IndicatingWordsValue + 1 


x ActionWordsValue + 2 * Co -occurrenceValue + 0. 5 * 
LocationValue 4 0. 5 « ORB -Value ,其 中 IndicatingWords- 
Value 表示 句子 中 是 否 包 括 指 示 词 的 变量 ,如 果 包 括 
IndicatingWordsValue = 1 ,和 否则 IndicatingWordsValue = 


0, 其 他 变量 的 计算 方法 等 同 。 


表 1 指纹 识别 模型 权重 值 分 配 层次 


序号 分 配 层次 名 称 分 值 描述 
1 语义 性 特征 权重 值 2.0 分 语义 层面 权重 最 大 ,直接 从 语义 层面 上 标识 知识 单元 的 指纹 特征 类 型 
2 基准 性 特征 权重 值 1.0 分 主要 从 语义 行为 词 视角 进行 设置 
3 强调 性 特征 权重 值 0.5 分 如 果 满 足 某 一 条 件 , 则 指纹 特征 类 型 的 强度 就 增加 


AS, 基于 术语 粒度 的 研究 设计 指纹 自动 识别 方法 
Ade 算法 设计 与 实现 术语 往 度 的 研究 设计 “指纹 
识别 算法 设计 主要 从 语料库 特征 、 所 在 句子 指纹 特征 、 
有 重负 子 行为 词 的 指纹 特征 .SOX 属性 特征 以 及 句子 
所 在 修辞 结构 特征 5 个 方面 来 综合 判定 一 个 术语 知识 
的 最 可 能 的 研究 设计 指纹 特征 类 型 。 其 中 ,术语 粒度 
的 指纹 村 征 向 量 (term fingerprinter space vector, 简称 
TSD ,主要 以 与 术语 知识 单元 相关 的 指纹 特征 类 型 相 
关 了 因素 为 主要 指标 维度 ,包括 术语 是 否 是 规范 语 料 词 
(jpus) 等 9 个 维度 , 即 :TSV = (Term , isCorpus , 
CoffusType , ParagraphType, Location , SentenceFP, 
RA , Action, ActionTense) ,其 中 Term 为 术语 、isCor- 
piE 为 语 料 词 标识 、CorpusType 为 语 料 词 指 纹 类 型 、 
PatagraphType 为 段落 修辞 类 型 、Location 为 所 在 位 置 、 
SentenceFP 为 所 在 句子 指纹 类 型 、Role 为 术语 角色 、 
Action 为 行为 词 .ActionTense 为 行为 词 时 态 。 
核心 算法 设计 包括 :第 1 步 计算 CorpusWordsValue 
得 分 ,即使 用 语料库 进行 判断 该 术语 词 是 否 在 语料库 
中 ,如 果 是 , 则 该 术语 指纹 类 型 +2 分 ;第 2 步 计算 Sen- 
tenceFPValue 得 分 , 即 当 前 术语 词 识别 判断 的 指纹 特征 
类 型 是 否 与 所 属 的 句子 指纹 特征 类 型 一 致 ,如 果 一 致 ， 
则 该 术语 指纹 类 型 +1 分 ;第 3 步 计算 ActionWordsVal- 
ue 得 分 , 即 当 前 术语 词 所 在 句子 的 行为 词 ,其 具有 的 
间 纹 特征 类 型 是 否 与 识别 判断 的 指纹 特征 类 型 一 致 ， 
如 果 一 致 , 则 该 术语 指纹 类 型 + 1 分 ;第 4 步 计 算 SOX- 
Value 得 分 , 即 当 前 术语 词 是 否 核心 词汇 ,如 果 是 , 则 该 
术语 指纹 类 型 +f 0.5 分 ;第 5 步 计算 ORB -Value 得 分 ， 
即 当前 术语 词 识别 判断 的 指纹 特征 类 型 是 否 与 所 在 句 
子 的 修辞 结构 类 型 一 致 ,如 果 是 , 则 该 术语 指纹 类 型 + 


0.5 分 。 
4.3.2. 术语 指纹 特征 类 型 综合 评判 方法 术语 粒度 
的 指纹 识别 算法 的 设计 与 句子 粒度 的 指纹 识别 算法 设 
计 基 本 类 似 , 本 质 区 别 在 于 句子 的 指纹 特征 类 型 作为 
了 术语 粒度 指纹 识别 的 一 个 参数 , 即 一 个 句子 的 指纹 
特征 类 型 一 定 程度 上 影响 着 该 句子 中 核心 术语 词 的 指 
纹 特征 类 型 的 识别 。 所 以 仍然 采取 综合 利用 各 个 识别 
规则 模式 ,使 用 投票 的 方式 来 识别 术语 知识 可 能 的 指 
纹 特征 类 型 ,其 中 ,投票 者 代表 一 个 类 型 的 规则 ,每 一 
个 都 有 投票 的 权利 ,但 是 由 于 其 身份 不 同 ,所 以 投票 决 
定 的 权重 也 不 同 。 其 中 投票 得 分 的 算法 如 下 (权重 值 
参照 表 1 ) : 

Term, FP. Score =2 * CorpusWordsValue + 1 * Sen- 
tenceFPValue +1 * ActionWordsValue + 0. 5 « SOXValue 
+0. 5 « ORB-Value ,其 中 的 变量 解释 参照 4.3.1 中 的 
算法 实现 部 分 。 


5 实验 和 结果 


5.1 语料库 与 实验 数据 准备 

5.1.1 语料库 数据 材料 构建 语料库 数据 材料 主要 
包括 数据 挖掘 领域 方向 的 专业 术语 .领域 KOS .研究 设 
计 指 纹 特征 指示 词 以 及 规则 模式 集 , 这些 既 是 指纹 特 
征 类 型 识别 的 直接 线索 ,也 是 机 器 学 习 的 语 料 依 据 , 用 
于 指纹 线索 的 发 现 与 计算 。 有 具体 创建 过 程 为 :中 专业 
术语 ,该 部 分 的 语 料 主要 使 用 “十 二 五 ”科技 支撑 计划 
项 目 成 果 , 即 科技 知识 组 织 体系 (STKOS) "1 的 工学 人 
工 智能 方向 的 科技 术语 ;@ 领 域 KOS ,针对 Data Mining 
研究 方向 ,使 用 IEEE5 叙 词 表 二 ;四 研究 设计 指纹 特 
征 指示 词 , 采 用 WordNet P? ( 主要 利用 同义词 以 及 词 
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Ji.) ,VerbNet ^ (主要 利用 行为 词 角色 ) 计算 机 科学 
研究 论文 的 语 料 分 析 "” 以 及 期 刊 发 表 要 求 纲 要 、 科 技 
论文 以 及 科技 报告 撰写 的 纲要 等 材料 ,构建 指示 词语 
料 。 本 次 实验 创建 研究 设计 指纹 的 线索 指示 性 语 料 
235 个 。 

5.1.2 科技 论文 全 文 数据 ”材料 的 准备 作为 信息 解 
决 方案 提供 商 ,Elsevier 将 科技 论文 的 全 文 以 “ 富 媒 体 ” 
HTML 格式 进行 结构 化 展示 ,有 效 支 持 了 科研 用 户 以 
“Play” 模 式 来 科学 合理 地 深度 利用 科技 论文 全 文 。 
处 于 上 述 良 好 的 信息 环境 下 ,以 主题 词 “ Data Mining" 
为 检索 词 ,利用 手工 下 载 保存 的 模式 ,从 Elsevier 官方 
数据 库 下 载 HTML 格式 的 科技 论文 全 文 文件 ,共计 100 
篇 ( 拟 采用 小 样本 数据 ,对 本 研究 提出 的 研究 方法 体系 
的 旦 行 性 进行 验证 分 析 , 后 续 在 该 方法 的 普 惠 性 方面 


将 扩大 数据 量 与 实验 领域 进行 对 比 验证 ) ,作为 本 研究 
研究 方法 可 行 性 分 析 的 原始 数据 。 
5.2. 实验 结果 评价 分 析 

实现 效果 分 别 如 图 5、 图 6 与 图 7 所 示 。 同 时 ,为 
了 验证 论文 提出 的 研究 设计 指纹 自动 识别 算法 对 9 种 
研究 设计 指纹 识 的 识别 效果 ,采取 领域 专家 对 比分 析 
法 ,邀请 10 位 专家 分 别 对 50 篇 文献 研究 设计 指纹 识 
别 结果 进 行 判读 ,判读 结果 详 见 表 2, 并 通过 专家 认可 
度 指数 来 标识 各 个 区 间 的 判读 结果 分 布 ,专家 认可 度 
指数 的 计算 公式 为 :认可 度 = 票数 * 区 间 最 低 准确 
率 /Sum( 票 数 * 区 间 最 低 准确 率 ) ,其 中 Sum (票数 * 
区 间 最 低 准 确 率 ) 为 各 个 区 间 的 最 小 值 与 该 区 间 票 数 
乘积 的 总 和 ,专家 认可 度 分 析 详 见 表 3。 


LO " Z / 4 科技 nS 设计 指纹 自动 语义 标注 工具 研发 示范 成 果 
培育 项 目 : 科技 论文 的 研究 设计 指纹 自动 语义 标注 工具 研发 示范 成 果 ame ü 
T LM MEM MI ur MISI M M —j 2 is 
(0) AREA: 12) SAACSRETIPREORTIE mh 
© TWRREIUBLTUITATEYEENS o7 
BURAS. DREUTABUZUE. TÅ 
RINER EARNE FERMOR, Eh organic minerals The. 
m" AX CAR ATA ASRS possible to classy th 
CO ama he mox: 
e gna 
*üunxWAEX: (2) GANNA 。 
CD SATER: URR anay/ MANENE 
N aforementioned ppled memos 
© 开始 语义 标注 jence metnoos ó iori techniques ;7 arfcial neural netwoms 8 cassifcaton procedure 
S 5 指纹 标注 输入 界面 
numm 
LI oes 
7 指纹 标注 结果 界面 
6 指纹 标注 结果 界面 
R2 研究 设计 指纹 识别 结果 专家 判读 结果 
指纹 类 型 专家 判读 正确 率 的 票数 分 布 信息 专家 判读 覆盖 率 的 票数 分 布 信息 
Hz A 
« 6096 60% -70% 70% -80% >80% <60% 60% -70% 70% -80% >80% 
研究 方法 - - 5 45 - = - 50 
研究 工具 - 3 6 41 - 5 20 25 
研究 数据 5 10 15 20 10 10 25 15 
研究 假设 2 7 8 33 = 2 3 45 
研究 目标 = 7 43 E - 2 48 
研究 背景 - - 8 42 S 2 10 40 
研究 结果 - 2 9 39 - - 3 47 
研究 结论 - 4 8 38 i 5 5 40 
研究 趋势 3 10 11 26 1 2 6 41 
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AI, 张晓林 , X5. 科技 论文 的 研究 设计 指纹 自动 识别 方法 构建 与 实现 [J]. 图 书 情报 工作 ,2018,62(2):135 - 143. 


表 3 研究 设计 指纹 识别 结果 的 专家 认可 度 分 析 


指纹 识别 结果 准确 率 “ 认 可 度 ” 分 析 


指纹 识别 结果 覆盖 率 “ 认 可 度 "分 析 


6 ir As 

TARR <60% 60% -70% 70% -80% >80% <60% 60% -70% 70% -80% >80% 
研究 方法 一 一 9.0% 91.0% - - - 10046 
研究 工具 - 4. 790 10. 896 84. 596 = 8.196 37. 8% 54. 1% 
研究 数据 8.596 16. 9% 29. 5% 45. 196 14. 496 14. 4% 42. 396 28. 9% 
研究 假设 3.396 11.2% 15. 096 70. 596 - 3.196 5.3% 91. 6% 
研究 目标 一 一 12. 5% 87.596 - - 3.696 96. 4% 
研究 背景 5 - 4.3% 85.7% - - 18. 0% 82. 096 
人 研究 结果 - 3.196 16.396 80. 6% - - 5.396 94. 796 
人 研究 结论 - 6.396 14. 696 79.196 - 7.996 9. 096 8396 
研究 趋势 6. 796 16. 2% 20. 8% 56.396 1.7% 3.0% 10. 8% 84. 5% 


表 3 的 整体 “认可 度 指数 "结果 显示 ,本 研究 提出 
的 “基于 科技 论文 的 研究 设计 指纹 识别 方法 "在 准确 
雍和 覆盖 率 方面 ,基本 达到 了 实验 预期 与 目的 ,其 中 研 
究 大 法 等 7 种 特征 指纹 的 识别 准确 率 和 禾 盖 率 都 达到 
了 R86% 以 上 ,而 认可 度 指数 相对 较 低 的 其 他 两 种 特征 
广 的 识别 结果 也 主要 分 布 在 70% - 80% 的 区 间 中 。 


OD 研究 数据 研究 假说 与 研究 趋势 指纹 在 科技 论 
6 的 描述 特征 不 够 明显 , 显 性 特征 比 起 其 他 指纹 特 
征 相 对 较 弱 , 例 如 :研究 数据 , 提 到 data 术语 大 多 泛泛 
三 旺 , 不 能 确定 具体 的 研究 数据 指纹 ;研究 假说 ,科技 
论 详 中 都 会 有 提 及 ,但 是 很 多 时 候 是 通过 笔者 推理 时 
示 采 表 达 , 一 定 程度 上 难 从 中 识别 ;而 研究 方法 研究 
续 沧 等 指纹 特征 类 型 ,表述 的 特征 性 相对 较 强 ,例如 提 
出 PXXX 方法 ,最 终 得 出 了 YYY 结论 等 。@ 由 于 实 
验 数 据 集 相对 较 小 ,也 影响 了 标 引 语 料 与 特征 规则 模 
式 的 数量 相对 较 少 ,一 定 程度 上 也 影响 了 识别 的 准确 
率 与 覆盖 率 。 

基于 上 述 分 析 结 论 , 对 认可 度 相对 较 高 的 指纹 类 
型 ,将 基于 目前 指纹 识别 方法 ,进一步 总 结 与 发 现 相关 
规律 ,特征 ,提升 其 准确 率 与 覆盖 率 ; 对 认可 度 较 低 的 
指纹 类 型 ,将 对 其 相关 的 计算 指标 与 方法 进一步 调整 ， 
同时 将 利用 深度 学 习 , 进 一 步 更 全 面 的 、 更 细节 性 的 挖 
据 与 学 习 研 究 数据 ,研究 假说 和 研究 趋势 3 种 指纹 特 
征 类 型 在 科技 论文 全 文中 的 描述 特征 。 


6 ”结论 与 展望 


本 研究 通过 对 科技 论文 的 内 容 特征 进行 全 面 分 

Vr ,提出 了 基于 多 规则 模式 混合 机 器 学 习 的 研究 设计 
昌 纹 自动 识别 算法 ,实证 分 析 结 果 表 明 ,该 方法 在 大 多 
数 指纹 特征 类 型 的 识别 上 效果 显著 ,特别 是 研究 方法 、 
研究 结论 等 指纹 类 型 ,有 效 地 识别 与 抽取 了 隐 含 在 科 


技 论文 全 文中 的 重要 指纹 知识 ,但 在 某 些 指纹 特征 的 
识别 上 ,比如 研究 数据 ,还 需要 进一步 完善 。 


未 来 ,笔者 将 进一步 对 影响 研究 设计 指纹 识别 的 
相关 因素 进行 全 面 分 析 , 对 评估 研究 设计 指纹 识别 效 


果 的 有 效 性 方法 进一步 改进 ,以 “理工 农 医 "不 同 的 研 
究 应 用 领域 ,开展 更 为 广泛 的 应 用 示范 , 尽 可 能 全 面 地 
发 现 指纹 识别 算法 可 能 存在 的 问题 ,以 提升 与 完善 指 
纹 识别 算法 模型 的 识别 效果 。 
在 此 基础 上 ,利用 该 指纹 识别 方法 ,对 以 期 刊 为 核 
心 的 海量 科技 文献 的 元 数据 进行 指纹 识别 ,一 方面 构 
建 学 术 界 研究 设计 指纹 之 间 丰 富 的 关联 关系 , 另 一 方 
面 围绕 专家 、 机 构 等 科研 实体 ,发现 并 构建 出 各 自 的 研 
究 设计 指纹 知识 库 ,以 增强 学 术 知 识 计算 的 能 力 ,提升 
基于 大 数据 计算 的 知识 发 现 的 效果 。 
参考 文献 : 
[1] RJ, IKEI, EH. 基于 科技 文献 的 研究 设计 指纹 描述 框架 
WESEL]. 大 学 图 书馆 学 报 ,2015 (1) :14 -20. 
[2] GIRJU R, BEAMER B, ROZOVSKAYA A, et al. A knowledge- 


rich approach to identifying semantic relations between nominals 
[J]. Information processing & management an international jour- 
nal, 2010, 46(5) :589 —610. 

[3] WANG D, LIU X, LUO H, et al. A novel framework for semantic 
entity identification and relationship integration in large scale text 
data[ J]. Future generation computer systems, 2016, 64( C) :198 
—210. 

[ 4 ] VARGASVERA M, MOTTA E, DOMINGUE J, et al. MnM: on- 
tology driven semi -automatic and automatic support for semantic 
markup [ C ]// International conference on knowledge engineering 
and knowledge management. London ; Springer-Verlag, 2002; 379 
—391. 

[5 ] HANDSCHUH S, STAAB S, CIRAVEGNA F. S-cream 


Semi- 


automatic CREAtion of metadata[ C ]//Knowledge engineering and 
knowledge management. Ontologies and the semantic Web. London : 


Springer-Verlag ,2002 :358 — 372. 


141 


图 二 情报 三 作 


第 62 卷 第 2 期 2018 f£ 1 H 


ChinaXiv 合 作 期 刊 


[ 6 ] Advanced knowledge technologies[ EB/OL ]. [2017 -09 - 26 ]. 


http ;// www. iam. ecs. soton. ac. uk/projects/akt/. 


[ 7 ] CIRAVEGNA F, DINGLI A, PETRELLI D, et al. User-system co- 


La 


La 


operation in document annotation based on information extraction 
[C]// International conference on knowledge engineering and 
knowledge management. Ontologies and the semantic web. London: 
Springer-Verlag ,2002 :122 - 137. 

DILL S, EIRON N, GIBSON D,et al. A case for automatedlarge 
scale semantic annotation. [ EB/OL ]. [2016 — 10 — 20 ]. http;// 
www. websemanticsjournal. org /index. php /ps article /viewFile 
/30 /28. 

CIRAVEGNA F,CHAPMAN S,DINGLI A,et al. Leaming to har- 


vest information for the semantic web[ C ]//Proceedings of the 1st 


- 326. 


[ 1037GUO Y F, SILINS I, STENIUS U, et al. Active learning-based in- 


Ww, 
* formation structure analysis of full scientific articles and two appli- 


Bioinformatics, 2013, 


cations for biomedical literature review[ J ] . 


12901) :1440 - 1447. 
ED, K AAE. 基于 语句 聚 类 识别 的 知识 动态 提取 方法 研究 


L] 


[人 Di 许 勇 , 宋 柔 . 基于 HMM 的 


[J]. 计算 机 学 报 ,2001,24 (5) : 487 -495. 
科 辞 典 文本 中 句子 的 知识 点 分 类 
,2005 :41(4) :35 -38. 


[中 .计算 机 工程 与 应 


[ IBNJSOLDATOVA L N, LIAKATA M. An ontology methodology and 
CCOCISP -the proposed core information about scientific papers [ EB/ 
No: . [2016 -09 -24 ]. https://www. aber. ac. uk/en/media/de- 


Spartmental/ impacs/computerscience/ pdfs/ ReportCISPshort. pdf. 
 MJAHOUNGBO, HOSPICE, MERCER R E. Method mention extrac- 


Mion from scientific research papers[ C ]//24th International confer- 


a 


C ence on computational linguistics - proceedings of COLING 2012. 


Ll 
uev York; Curran associates, 2012. 
[ 18$ »GUPTA S, MANNING C D. Analyzing the dynamics of research by 


[16 


[17 


[18 


] 


La 


] 


[Sfr 


extracting key aspects of scientific papers[ C ]// Proceedings of 5th 
international joint conference on natural language processing. New 
York ; Curran associates, 2011; 1 -9. 

KIELA D, GUO Y, STENIUS U, et al. Unsupervised discovery of 
information structure in biomedical documents[ J]. Bioinformatics, 
2015, 31(7) : 1084 — 1092. 

GUO Y F, SILINS I, STENIUS U, et al. Active learning-based in- 
formation structure analysis of full scientific articles and two appli- 
cations for biomedical literature review[ J]. Bioinformatics, 2013, 
29 (11) ; 1440 - 1447. 

GUO Y F, REICHART R, KORHONEN A. Improved information 
structure analysis of scientific documents through discourse and lex- 
ical constraints[ C ]// Proceedings of NAACL-HLT , Association for 
Computational Linguistics. New York; Curran associates, 2013: 
928 - 937. 

ECKLE-KOHLER J, NGHIEM TD, GUREVYCH I. Automatically 


assigning research methods to journal articles in the domain of so- 


142 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


[27 


La 


[28] 


[29] 


[30] 


[31 


ka 


[32 


i 


[33] 


cial sciences[ J]. Proceedings of the American Society for Informa- 
tion Science and Technology, 2013, 50(1); 1 -8. 

刘 一 宁 EET ORUM. 学 术 定义 抽取 系统 实现 及 实验 分 析 
[中 .情报 理论 与 实践 ,2011 ,34 (12): 15 - 19. 
TEE, AET ,化 柏林 . 基于 规则 的 学 术 概 念 属性 抽取 [J]. 
情报 理论 与 实践 ,2011, 34 (12) : 10 -14 ,33. 

郭 忠 伟 , 周 献 中 , 黄 志 同 . 作战 文书 自动 生成 系统 中 内 容 规划 
的 设计 [可 . 火力 与 指挥 控制 ,2002 ,27 (4) : 51-54. 

Pundit - Semantic annotation tool[ EB/OL]. [2017 -03 -20 ]. ht- 


tp ;//thepund. it/. 

SWEETEB [ EB/OL ]. [2017 — 03 - 20 ]. http:;//sweet. kmi. 
open. ac. uk/. 

GUPTA S, MANNING C D. Identifying focus, techniques and do- 
main of scientific papers ( EB/OL ]. [2017 — 03 ~ 20 ]. https;// 
www. researchgate. net/publication/267232558, Identifying Focus. 
Techniques, and. Domain, of. Scientific. Papers. 

BETHARD S, MARTIN J H. Identification of event mentions and 
their semantic class [ C ]//Proceedings of the 2006 conference on 
empirical methods in natural language processing. Sydney : Emnlp, 
2006 : 146 —154. 

FADER A, SODERLAND S, ETZIONI O. Identifying relations for 
open information extraction | C ]// Conference on empirical methods 
in natural language processing. Edinburgh: Association for compu- 
tational linguistics ,2011 :1535 — 1545. 

FOX - Agile knowledge engineering and semantic web ( AKSW) 
[EB/OL]. [2017 - 03 —20]. http://aksw. org/Projects/FOX. 
html. 

张 智 雄 , 吴 振 新 ,刘建华 ,等 ， 当前 知识 抽取 的 主要 技术 方法 解 
析 [ 可 .现代 图 书 情报 技术 , 2008, 24(8) : 2-11. 

MANNING C D, SURDEANU M, BAUER J, et al. The stanford- 


corenlp natural language processing toolkit [ C ]// Proceedings of 
52nd annual meeting of the Association for Computational Linguis- 
tics; system demonstrations. Maryland; Curran associates, 2014: 
55 - 60. 

LEE D, PARK J, SHIM J, et al. An efficient similarity join algo- 
rithm with cosine similarity predicate[ C ] // International conference 
on database and expert systems applications. Heidelberg : Springer, 
2010; 422 —436. 

BESSIN J, DAS A. Big data analytics federal business analytics. 
[ EB/OL]. [2017 - 03 - 20 ]. https://www. xerox. com/down- 
loads/services/ white -paper/big-data-analytics. pdf. 

孙 坦 , xU. 面向 外 文科 技 论文 信息 的 知识 组 织 体系 建设 思路 
[中 .图 书 与 情报 ,2013(1) :2 -7. 


] IEEE 互动 百科 [ EB/OL]. [2017 -04 — 10]. http://www. baike. 


com/ wiki/IEEE. 


] IEEE thesaurus. 2013. [ EB/OL ]. [2017 - 04 — 10]. https:// 


www. ieee. org/ documents/ieee. thesaurus, 2013. pdf. 


] About WordNet [ EB/OL ]. [2017 - 03 - 20 ]. http://wordnet. 


princeton. edu/. 


o 


钱 力 , 张晓林, X. e MIELE SEE sd 302 33x RLJ]. 图 书 情报 工作 ,2018 ,62(2) :135 - 143. 


[37] Martha Palmer[ EB/OL]. [2017 - 03 - 20 ]. http;// verbs. colo- 作者 贡献 说 明 : 
rado. edu/ ~ mpalmer/projects. html. AJ: fi 责 论 文 内 容 的 撰写 和 论文 修改 ; 


38] POSTEGUILLO S. The schematic structure of computer science re- 区 m pe Se ss 
5n i 张晓林 :负责 论文 内 容 设计 与 审核 ; 


search articles[ J]. English for specific purposes, 1999, 18(2): NEN 
Gif pie Xe A. 


139 -160. 


Building and Implement on Automatic Identification Method of 
Research Design Fingerprint of Scientific Papers 
Qian Li! Zhang Xiaolin) Wang Qian? 
' National Science Library , Chinese Academy of Sciences , Beijing 100190 
? Institute of Medical Information / Medical Library, CAMS&PUMC , Beijing 100005 
Abstract. [ Purpose/significance | Automatic identification and extraction of research design fingerprint from scien- 
tific papers is able to provide researchers with significant methodology and research support for project design, validity e- 
valuation of research methods, problem diagnosis of research process and identification and evaluation of research results. 
[ Method/ process | The paper, based on the concept model of research design fingerprint in scientific papers, proposes 
amülti rule hybrid machine learning methods to design and implement the fingerprint identification algorithm model and an- 
alyze. and verify the feasibility and validity of the methodby sample data in the field of datamining. [ Result/conclusion | The 
résults show that in addition to the research data and research trends, the recognition accuracy of other research design fin- 
go Tout is almost 8096. And the acceptance of coverage, in addition to research tools and research data, is almost 8096. 


Keywords: research design fingerprint semantic annotation knowledge extraction machine learning 


寒假 ”图 书馆 之 旅 " 信息 素养 课程 开始 报名 


,这 个 假期 让 图 书馆 成 为 旅行 中 的 一 站 。 参 加 “图 书馆 之 旅 ” ,用 一 天 的 时 间 走 进 图 书馆 ,深入 了 解 图 书馆 文化 .学习 获取 
和 辨别 信息 的 方法 。 通 过 讲座 和 动手 实践 学 习 如 何 利 用 图 书馆 获取 信息 和 知识 ,提升 自我 学 习 能 力 。 在 课程 结束 时 所 有 学 
员 还 将 获得 “图 书馆 小 志愿 者 ”纪念 证 书 。 
中 国 科学 院 文献 情报 中 心 作为 一 个 以 数字 化 网 络 化 服务 为 主 和 以 知识 化 服务 为 特征 的 现代 化 国家 科学 图 书馆 ,在 支撑 
PEJA 主创 新 、 服 务 国家 创新 体系 中 发 挥 着 日 益 重 要 的 作用 。 本 次 课程 主讲 教师 均 来 自 于 文献 情报 中 心 图 书馆 与 知识 学 习 
中 心 的 一 线 人 员 ,具有 丰富 的 图 书馆 学 知识 和 实践 经 验 。 将 带领 学 员 度 过 一 个 充实 而 又 难忘 的 “图 书馆 之 旅 ” 。 


一 、 招 生 对 象 :初中 、 高 中 青少年 三 .课程 形式 

二 ,课程 内 容 三 场 讲座 ,每 讲 60 分 钟 ,实践 及 参观 2 小 时 。 

1 图 书馆 ABC 一 一 图 书馆 基本 知识 四 、 课 程 时 间 和 地 点 

图 书馆 的 前 世 今生 .基本 知识 ,作用 及 文化 意义 等 。 初步 定 于 2018 年 1 月 29 日 。 每 班 10 人 , 需 提前 1 周 预 

2 检索 小 能 手 一 一 如 何 检索 及 使 用 信息 约 。 具 体 开课 时 间 以 通知 为 准 。 

信息 的 特点 信息 检索 的 途径 方法 及 信息 分 辩 和 引用 地 点 :中 国 科学 院 文献 情报 中 心 北京 市 海淀 区 中 关 村 
等 ,提高 青少年 信息 使 用 和 挖掘 能 力 。 北 四 环 西 路 33 号 

3 . 谈 古 说 今 一 一 古籍 知识 咨询 : 陈 老师 18411008550, 扫 二 维 码 预约 报名 : 


n. 
y 
ES 


了 解 中 西方 古代 书籍 形制 及 作用 , 走 进 图 书 砍 堂 
文献 情报 中 心 特色 馆藏 及 制作 拓片 。 

4 图 书馆 之 旅 一 一 参观 图 书馆 或 科学 成 就 展 

参观 文献 情报 中 心 图 书馆 ,实地 了 解 中 科 院 文献 情报 中 
心 的 图 书馆 基础 业务 或 参观 4“ 十 八大 ”以 来 中 国 科学 院 创 
新 成 果 展 》 
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